关于人工智能安全性 谷歌提出五个实用问题

关于人工智能安全性谷歌提出五个实用问题

Original 2016-06-23 John IntelligentThings

戳蓝色字关注IntelligentThings

引言

近些年来，人工智能技术迅猛发展。但是，对于任何一项新技术来说，我们必须充分评估它将面临的挑战，以及存在的风险。最近，来自谷歌，加州大学伯克利分校，斯坦福大学，OpenAI的科学家们，发表了一篇题目为《人工智能安全性的具体问题》的文章，重点讨论了关于现实实践过程中，由于人工智能系统的不良设计，所引起的安全意外，及如何减少它们。文章围绕了五个“实用”的问题来展开讨论。

人工智能安全性的讨论

过去几年，在人工智能及机器学习的应用领域，例如，计算机视觉，视频游戏，无人驾驶汽车，AlphaGo等等，研究人员都取得了巨大的成就。然而，这却是喜忧参半的，因为人工智能的安全性，让人们深深的担忧。例如，在安全，经济，军事等方面，以人工智能长远发展前景的考虑。人们有了一些列的假设和猜想，例如：人工智能是否会对人类造成威胁？人工智能是否会变得不受控制？等等。

而我们是否抛开这些假设和猜想，去研究一些安全性方面的“实际问题”呢？谷歌的研究人员，专注于机器学习研究中遇到的“实际问题”，脚踏实地的做一些研究，并提出一些实际策略，能使得人工智能更加安全的运行。

研究人员表述了和意外风险相关的“五大实际问题”，按照以下方法分类：错误的目标功能（“避免副作用”和“避免黑客行为”），目标功能太昂贵，无法经常评估（“可扩展监督”），或者学习过程中不受欢迎的行为（“安全探索”和“分布式转移”）。为了贴近实际，研究人员使用清扫办公室混乱环境的清洁机器人，作为例子来阐述它。同时，他们也提出了解决这些问题的研究方向。

<1> “负面影响”

清洁机器人在清扫环境的时候，为了选择最优路径清扫，就会将花瓶作为障碍，打破一个花瓶。这样就带来了负面影响的问题。

而我们可以通过为机器人指定不应该破坏的东西，来阻止它这么做。但是，单独制定不应该被破坏的障碍，这样的方法似乎不是很高效。研究人员指出，开发更加通用的方法，让人工智能能够在“常识性约束”下完成任务，并且对环境进行破坏的行为进行惩罚，这是以后研究的重点。

<2> “奖励骇客行为”

清洁机器人，会对它的报酬系统进行“游戏”吗？例如，机器人对环境进行清扫时，会禁用视觉功能。这样就不会发现任何脏乱，如何“视而不见”。或者，将所有的脏乱都掩盖好，同样，它们也不会看到。或者，当有人过来的时候，他会躲起来，所以人们无法告诉它有新的脏乱类型。对于这样的机器人这样的“骇客行为”，进行奖励，会破坏要进行的原始的目标。

这种行为和负面影响一起，是由于人工智能的设计者，实现了“错误的目标功能”而引起的，这种处理任务的状态，让机器人错误解释了程序员初始目的。所以，清洁机器人可能在检查到脏乱的时候，就被奖励。这样，它可能让简单的把灰尘扫到地上。或者，清洁机器人“积极”清扫灰尘的时候，也被奖励。这样它可能制造更多的灰尘来清扫。这对于机器人来说可能是获取奖励的有效途径，但却不是正确而高效地清扫办公室的方法。

研究人员相信，奖励“黑客行为”，也就是一种“投机取巧”的行为，可能是很难解决的问题。因为，人工智能解释任务或者环境的方法各异。但是，他们给未来的研究提供了一些建议：让机器人对于奖励机制的产生方法，无法完全理解。这样，防止它对于评价系统进行“骇客式的攻击”。或者，科学家们可以开发成功的评价系统，不能被轻易的绕过。

<3> “可伸缩的监督”

人工智能的有些任务目标，在训练过程中，如果要频繁的评估，那么会很昂贵。那么，我们如何有效的保证清洁机器人完成这些目标？机器人可以找到一条途径，在有限的信息提供下，做正确的事吗？

为了解决这个问题，研究人员需要找到一条途径，改善奖励方法，同时长远的监督，和分层强化学习也是一条途径。

<4> “安全探索”

我们怎么保证清洁机器人，做出探索性举措，结果不会十分糟糕？机器人学习的主要部分就是探索。探索行为大多数情况下都是有效的，但是它也导致了很多负面效应，例如奖励黑客行为，或者对于机器人，环境或者周围的人的损害。例如，机器人进行拖地的时候，把湿拖把放在插座上，这是一个十分糟糕的想法。

科学家们建议，人工智能在模拟环境中，需要被教会，哪些探索将在真实世界中是有害的，未来需要设定一些参数，让人工智能可以安全探索。

<5>“分布转移的鲁棒性”

在一个新环境中，和训练的环境不同，我们如何保证清洁机器人辨识和行为的鲁棒性？例如，在办公室中，用清洁工厂地板的方式，清洁办公室地毯，可能是危险的。我们要启发机器人学习。比如在一个环境中学会的东西，在另外一个环境中，根本不需要。人工智能在这方面的是很弱的，因为他们不会根据环境的变化，改变它们的想法，还是用以前学习到的方法处理问题，导致潜在的灾难性的后果。

为了解决这个问题，需要开发更聪明的策略，训练人工智能，根据环境的变化，作为不同的响应。

如果大家有什么关于物联网，智能硬件，创新方向的技术或者产品问题想了，请写评论告诉IntelligentThings，我会定期参看大家的问题，并选择一些来回答。

一把短刀，怎么就让他连捅18人？！

向杨大市长道歉

向不容妄议的杨市长道歉

以色列搞大了：伊朗说要直接出兵参战

黄晓菁，这位杭州泰隆银行女员工自爆视频火了，带给我们那些思考？